ICLR 2023 | 环境标签平滑,一行代码提升对抗学习稳定性/泛化性
©PaperWeekly 原创 · 作者 | 张一帆
单位 | 中科院自动化所博士生
研究方向 | 计算机视觉
通过域对抗训练 (Domain adversarial training: DAT) 最小化域分歧(domain divergence),在 DA/DG 任务中显示出了很好的的泛化性能。如下图所示,我们在 backbone+classifier 的基础上增加一个域分类器来对特征归属的域进行分类,在梯度反传至 backbone 时将符号取负,以此训练 backbone 让他的特征与域信息无关,只与分类信息相关。尽管 DAT 具有领域适应和领域泛化的能力,但它以难以训练和收敛而闻名。
论文链接:
代码链接:
Motivation
本文的 motivation 主要有两点:
2. Flaws of one-hot environment labels: 使用 one-hot 标签进行训练,模型输出概率将会高度自信,造成泛化能力差等问题。对于 DAT,一个非常自信的域鉴别器会导致梯度消失,不利于训练稳定性。
为了使得 DAT 算法的训练更加稳定,我们需要 1)让训练过程对噪音标签比较鲁棒;2)让域分类器的输出不要过于自信。为此我们提出了一个非常简单的算法,environment label smoothing (ELS),将域标签从 one-hot 形式转化为软标签。
实验效果
我们在囊括五个任务,十一个数据集,包括十种不同的 backbone 上验证我们的方法。我们的目标是使得所选择的数据集符合以下条件:
1. 不同数量的域(从 3 到 120,084);
2. 不同数量的类别(从 2 个到 18,530 个);
3. 不同的数据集大小(从 3200 到 448,000);
4. 各种数据维度和 backbone (Transformer, ResNet, MobileNet, GIN, RNN)。
在所有任务上,将我们的 ELS 与 DAT 方法结合都取得了明显的性能提升。特别的,在 domain adaptation 的 benchmark 上,我们的方法与 SDAT 结合达到了新的 SOTA。
我们也做了一下其他很有意思的实验比如下图 (a) 我们验证了在标签噪音存在的情况下,ELS+DANN 的效果比 DANN 本身好很多,噪音越大,ELS 的好处越明显。
理论验证
这部分是文章的主要贡献之一,我们首先假设鉴别器是无约束优化的,为应用 ELS 提供了一个理论解释。然后在对梯度的解释和分析的基础上,讨论了 ELS 如何使训练过程更加稳定。然后,我们从理论上证明,使用 ELS,标签噪声的影响可以被消除。最后,为了减轻无约束假设的影响,分别分析了经验间隙、参数化间隙和非渐近收敛性。
Divergence minimization interpretation
Training stability
在这一小节我们主要有三个理论结果:
1. Noise injection for extending distribution supports: GANs 训练不稳定性的主要来源是实数,生成的分布具有不相交的支撑空间或位于低维流形上。向数据添加来自任意分布的噪声被证明能够扩展两个分布的支持空间,并将保护鉴别器不受测度为 0 的对抗示例的影响,这将导致稳定且行为良好的训练。环境标签平滑可以看作是一种噪声注入就像我们在上一节的结果中说的那样,其中噪声为 γ(DS−DT),两种分布更有可能存在联合支撑。
2. ELS relieves the gradient vanishing phenomenon: 我们表明,在 vanilla DANN 中,随着鉴别器变得更好,从鉴别器传递到编码器的梯度会消失。也就是说,要么近似不准确,要么梯度消失,这将使对抗训练极其困难。合并 ELS 可以缓解这个问题。
3. ELS serves as a data-driven regularization and stabilizes the os-cillatory gradients: 编码器相对于对抗损失的梯度在原生 DANN 中保持高度振荡,这是对抗训练不稳定的重要原因。下图显示了整个训练过程中的梯度动态,其中以 PACS 数据集为例。使用 els,对抗损失带来的梯度更加平滑和稳定。我们从理论上验证了这一观点,其中应用 ELS 显示为添加了数据依赖的正则化项,与传统对抗损失相比,它稳定了所提供的梯度。
ELS meets noisy labels
Empirical gap and parameterization gap
以上的大多数命题基于两个不现实的假设。(i) 无限数据样本,(ii) 在没有约束的情况下优化判别器,即在无限维空间上优化判别器。在实践中,我们只观察到有限样本的经验分布,判别器总是局限于较小的类,如神经网络或再现核希尔伯特空间 (RKHS)。除此之外,JS divergence 也有着较大的 empirical gap,即经验分布的 JS divergence 并不能真正意义上代表真实分布的 JS divergence。
这一节我们主要回答以下问题,“给定有限维参数化空间上的有限样本,对于 ELS 算法,经验分布上的期望是否收敛于真实分布上的期望?” 我们严格推导了两个 high-probability bound 来验证何时以及在什么条件下,上述问题的答案是 Yes。
Non-asymptotic convergence
如上一节所述,上述分析特别是 JS divergence 相关的分析都需要假设可以得到最优鉴别器,这意味着假设集具有无限的建模能力,并且训练过程可以收敛到最优结果。如果 DAT 的目标是凹凸的,那么许多工作可以支持全局收敛行为。然而,凹凸假设过于不切实际,即 DAT 的更新不再保证收敛。
在本节中,我们重点讨论了平衡点附近点的 DAT 的局部收敛行为。具体来说,我们关注的是非渐近收敛性,它比渐近分析能更精确地揭示动态系统的收敛性。
我们构建一个 toy example 来帮助理解 DAT 的收敛。η 为学习速率,γ 为 ELS 参数,ca 常数。我们在这里总结了我们的理论结果:
1)同时梯度下降 (GD) DANN,它同时训练鉴别器和编码器,不能保证非渐近收敛;
截至目前为止,我们仍然有以下假设不能够完全保证。在收敛性分析中,我们假设算法初始化在一个唯一平衡点的邻域,在分析参数空间时,我们假设神经网络为 L-Lipschitz。这些假设可能在实践中并不成立,而且它们在计算上很难验证。为此,我们也在实验部分对理论结果进行了验证,从经验上支持我们的理论结果。
总结
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」